本章课程PDF,视频(油管B站)。

可以首先看一下OpenAI关于Generative Models的科普文章

“What I cannot create, I do not understand. ” -Richard Feynman

Generative Model这种方法背后的直觉遵循理查德·费曼的名言。

PixelRNN

根据前面的像素预测接下来的像素。PixelRNN不仅work,而且在不同的generate image方法中,产生的图是最清晰的。

李老师用宝可梦举例时,用到的tips—— 如果RGB三个值相差不大,则得到的颜色总是灰灰的、不够明亮,可以把众多颜色聚成若干类然后使用1-of-N encoding来表示。

It is difficult to evaluate generation.

如果要从头开始画,要故意加一些random,选取下一个pixel时Variational Autoencoder (VAE),不一定选取几率最高的,会有一定几率选概率比较低的颜色出来,防止每次画出来的都一样。

Variational Autoencoder (VAE)

把auto-encoder中的decoder拿出来,随便产生一个vector作为code输入到decoder,得到一张image,这样做performance通常不一定很好。如果使用VAE,得到的结果会比较好。

VAE与Auto-encoder相比,结构非常像,只是在中间加了一些神妙的小trick。

VAE得到的结果不太清楚。

VAE与PixelRNN区别在于,理论上VAE可以控制要生成的image。
比如code是10维,固定其中8维、调整剩余2维,看生成的image结果。通过不同的点产生的不同效果,可以解读code的每个维度代表什么意思。我们就可以通过调整code的每个维度的数值,去产生不同的image。

Writing Poetry

先胡乱选两个句子,经过encoder得到这两个句子的code,在code space上是两个点,连接两个点,然后等距采样、用decoder还原,得到一系列句子。(其实并不是写诗)

如果本博文对您有帮助,可以赞助支持一波博主~